﻿Oameni și dicționare Dan Cristea Freiburg: cum se face un dicționar bilingv Într-o zi caniculară de iulie, când trebuie să continui să adaugi intrări în dicţionar, unde ai putea să mergi, poate nu tocmai departe de casă, pentru a putea lucra? Dacă în casă e prea cald atunci singura posibilitate care îţi rămâne este să umpli trei coşuri cu cărţile care crezi că ţi-ar fi de folos pentru o zi de lucru, să le pui în portbagaj împreună cu două scaune de lemn, luate din bucătărie, şi să te îndrepţi spre râul răcoros care-şi aduce apele din muntele de deasupra satului Acolo, într-un loc cu umbră de pe mal, Elsa şi cu Paul descărcă maşina, lasă sub un arin panerul cu mâncare în care se află şi o sticlă cu vin roşu, şi-şi cară coşurile cu cărţi în mijlocul râului, depunându-le pe o piatră uscată, destul de mare ca apa să nu urce pe ea niciodată Lângă ea se înfig bine ca să nu le ia apa cele două scaune şi lucrul poate începe, cu picioarele alintate de râul de munte Intrările în dicţionar astfel răcorite nu se disting însă de celelalte… Cel mai mare dicţionar român-german a fost început de Heimann Tiktin, născut într-o familie de evrei români în Silezia Ajuns la Iași la 18 ani, este activ în Junimea și se împrietenește cu Eminescu, care-l inițiază în literatura și gramatica română Mai târziu, întors în Germania, predă la Universitatea humboldiană de la Berlin Deși caracterizat de Eugen Coșeriu ca precursor al sintaxei structurale și inovator al reprezentărilor de dependență în sintaxă, din care au derivat apoi gramaticile de dependență (Tesnière etc , atât de utilizate azi în lingvistica computațională), cea mai importantă operă a marelui lingvist rămâne dicționarul Nu se cunoaşte cu exactitate cum lucra Tiktin la dicționarul lui german-român, dar, pregătind ediția revăzută, Paul şi Elsa şi-au instalat acasă un mic copiator cu care au xeroxat toate dicţionarele pe care le aveau în casă şi pe care le-au putut găsi prin biblioteci Au selectat și adăugat apoi miile de fișe ale celor câțiva colaboratori ieșeni (lingviști lexicografi o parte din ei, în luptă crâncenă cu datarea primelor atestări) După care, lucrul la un cuvânt însemna tăierea cu foarfeca a intrărilor cuvântului respectiv din toate sursele respective şi lipirea lor într-un caiet mare Pe aceste foi se făceau apoi corecturi, tăieturi, adăugiri Ceea ce rămânea era apoi transcris la mașina de scris Retuşurile finale se făceau apoi pe foile dactilografiate Caen: Dicţionarul Integral Dominique s-a născut în Madagascar, insula Malgaşă, din părinţi francezi, care aveau acolo o plantaţie Pe la 11 ani a trebuit însă să părăsească acel paradis verde şi să vină în Franţa, pentru că insula se răscula împotriva coloniștilor francezi I-a rămas sufletul acolo şi convingerea că localnicii aveau dreptate când vroiau să scape de asuprire La convingerile lui utopic comuniste a avut însă neşansa să încerce să convertească nişte foşti trăitori în sfera unui comunism consumat în mod grotesc, până la absurditate și dezastru: eu şi cu Dante În deplasările noastre comune, ne ademenea în camera lui de hotel cu o sticlă de coniac franţuzesc, în faţa căreia nici unul din noi nu era în stare să reziste, dar scopul erau discuțiile despre comunism și dicționare… Legat de acest episod îmi aduc aminte de un altul, consumat în timp ce păşeam alături de Michael (cu care ne vom reîntâlni un pic mai jos), între uşa institutului unde lucra atunci, la Universitatea din Paris-Sud, Orsay, şi cantină O studentă încerca să-mi pună în palmă un manifest comunist, invitaţie la o adunare studen ţ easc ă Dup ă cum se ş tie, universit ăţ ile sunt medii sociale naive, perfecte pentru păstrarea ideilor primitive ale comunismului, nealterate de istoria care a avut cruzimea să le implementeze, să le dezvolte dincolo de teorie, până a le pune în practică, penibil, dureros, atroce… Lipsa mea vădită de interes faţă de invitaţia ei galantă de a participa la adunarea de stânga, pe care trebuie să mi-o fi exprimat printr-o strâmbătură extrem de convingătoare, însoțită de rostirea Pas à moi, je viens justement de lá!, trebuie s-o fi surprins neplăcut pe ingenua studentă care, îmi aduc aminte acum, nu părea să aibă alte defecte evidente… 2 Aşa şi cu Dominique… Îşi consuma minunatul coniac cu noi de fiecare dată când ne întâlneam Ştia că dacă nu venea cu el, n-avea nici o şansă să ne atragă în şuetele de convertire comunistă Și mai știa că n-o să aibă cu noi niciodată succes, în vecii vecilor, dar o făcea pentru plăcerea dialogului Și nici noi n-am fi acceptat coniacul lui pe gratis Îi făceam un serviciu, oferindu-i urechi şi o contraargumentaţie inspirată, astfel încât nimic nu putea fi mai atrăgător pentru o noapte de pierdut Și totuși, comunismul primitiv versus cel aplicat constituia doar un fundal anecdotic în serile cu Dominique, conversația serioasă situindu-se mai întotdeauna în sfera lexicologiei c1 omputaționale În teza lui de doctorat Dominique introdusese Dicționarul integral – o încercare de structurare a unui dicționar capabil să stocheze și să restituie elemente necontextuale ale descrierilor cuvintelor Teza nu era decât partea de la suprafață a icebergului Pentru că în spatele ei, Dominique, folosind pentru aceasta firma pe care singur și-a creat-o, MEMODATA, și din care câștiga cât să-și ducă zilele, f2 ăcuse Dicologique – un dicționar care punea în evidență asociații posibile între cuvintele limbii franceze, pe criterii lexico-sintaxice și componențiale Nancy: fabrica TLFI-ului O3 vizit ă la ATILF , în Nancy, e plin ă de înv ăţă turi E un loc unde se inventează În forma actuală, ATILF a apărut în 2001 prin unificarea Institutului Național al Limbii Franceze (INALF - CNRS) ș i departamentul Limb ă , Discurs, Cogni ț ie al Universității Nancy 2 (LANDISCO) Trésor de la Langue 4 Française informatisé reprezintă forma electronică a dicționarului de referință a limbii franceze a secolelor XIX și XX, care, la origine, avea 16 volume, 100 000 cuvinte, 270 000 definiții și 430 000 de exemple 1 Dominique Dutoit (2000) Quelques Opérations Sens^Texte et Texte^Sens utilisant une Sémantique Linguistique Universaliste a priori, thèse, Université de Caen 2 http://www memodata com/2004/fr/dicologique/index shtml 3 Analyse et Traitement Informatique de la Langue Française 4 Baza de date cu acces online, deschis liber oricui, poate fi accesată la http://atilf atilf fr/tlf htm 3 O viziune în ţ eleapt ă a adunat la ATILF nu numai exper ţ i lexicografi, echipa care a lucrat Trésor-ul, şi nu numai informaticieni, cei care au creat toată gama de programe care permit consultarea online, atât de diversă, a Dicționarului, dar şi adevăraţi filozofi ai limbajului, lingvişti teoreticieni ai ştiinţei lexicografiei Unul dintre ei e Alain Polguère Vine de la Universitatea din Québec, și a lucrat cu Igor Mel'cˇuck și André Clas la e5 laborarea lexicologiei explicativ-combinatoriale , pe baza căreia a creat apoi baza de date de colocații French DiCo DiCo descrie proprietăți combinatoriale ale unităților lexicale, lăsând la o parte definițiile lexicografice Cu alte cuvinte, baza de date este în primul rând dedicată accesului programatic și mai puțin citirii obișnuite Definițiile sunt înlocuite cu formule semantice 6 și, neîndoios, există destule apropieri de WordNet , tezaurul lexical englezesc, care a fost apoi aliniat cu realizări similare în peste 50 de limbi Alain Polguère îți poate vorbi o zi întreagă despre colocații, despre confuziile comune cu privire la ele și despre distincția dintre colocații și derivări semantice, deși ambele sunt exprimate prin funcții lexicale Dar eram interesat mai ales de tehnologia de realizare a TLFI Pascale Bernard e întotdeauna încântată să-ți dezvăluie amănunte Vorbește cu pasiune, e competentă, te cucerește Lucrul la varianta electronică a început în 1993, textul fiind 7 introdus in Madagascar, unde mâna de lucru era mai ieftină Pentru că scanerul lăsa aproximativ 40 de erori pe pagină, s-a preferat retastarea lui, dar forma editabilă a ultimelor 8 volume a fost cump ă rată de la editur ă Între 1993 ș i 2001 s-au inclus manual în text 3 niveluri de marcaje: tipografice (tipuri de fonturi), de obiecte textuale nestructurate (care doar identificau articole, cuvinte, definiții etc ) și de structură (cuvânt titlu, sens, etc ) Transformarea acestora în marcaje ale standardelor actuale a fost ultima operație, care s-a făcut automat Simultan 5 Mel'cˇuk, I , Clas, A , & Polgue`re, A (1995) Introduction a` la lexicologie explicative et combinatoire Louvain-la-Neuve: Duculot 6 Fellbaum, C (1998) WordNet: An electronic lexical database Cambridge MA: MIT Press 7 Iată deja două realizări de lexicografie franceză modernă ancorate în insula aceasta 4 s-au dezvoltat interfețele de acces, din ce în ce mai sofisticate Opțiunea de a face disponibil Dicționarul liber pe Internet a fost întotdeauna singura luată în considerare Marseille: cum să găsești cuvintele care-ți trebuie Ai ceva de spus, îţi stă pe limbă cum să spui asta, dar nu-ţi vine Ori vrei să spui ceva într-o limbă care nu-i a ta şi nu-i cunoşti nici lexicul, nici gramatica Te poate ajuta un calculator? Asta e problema la care încearcă să răspundă 8 prietenul meu Michael Problema revine la a şti cum să reprezinţi ceea ce ai de spun altfel decât prin cuvinte Sunt persoane care vorbesc prea mult şi prea repede Cum gândesc oare ele? Există o deosebire între modul în care-şi organizează ei informaţia în creier înainte de a o verbaliza şi modul în care fac acest lucru cei care vorbesc lent şi se gândesc mult până scot o vorbă? Nu mă refer la cei înceţi la minte… Ci la cei care pritocesc forma exprimării mult înainte de a o produce Şi clasica întrebare a interpretării: putem spune că formulăm un gând într-o limbă anume atunci când ne exprimăm într-o limbă care nu ne e natală? Și dacă da, în care? Suntem adesea atât de aproape de a exprima ceva, dar nu ne plac cuvintele pe care le-am găsit Ştim că limba are altele mai adecvate decât cele pe care le-am gândit, dar nu le găsim imediat Cum ar trebui să fie organizat un dicţionar care să ne ofere soluţii la aceste tipuri de căutări? A exprima în cuvinte ceva ce ţinem în minte într-o formă ceţoasă, vagă, încă nelămurită De multe ori cuvintele însele sunt cele care ne vin în ajutor Am făcut acest experiment de multe ori: îmi trebuie un cuvânt şi nu-l găsesc Încep să generez aleatoriu cuvinte La un moment dat, unul se potriveşte şi îl adopt El e, de el aveam nevoie, pe el îl căutam cu atâta înfrigurare Alteori cuvintele care îmi veneau în minte în ruleta aceea lingvistică îmi 8 Zock, M , Ferret, O & Schwab, D (2010) Deliberate word access : an intuition, a roadmap and some preliminary empirical results, In A Neustein (éd ) ‘International Journal of Speech Technology', 13(4):107-117, 2010 Springer Verlag 5 impuneau o completare a gândului, o glisare a lui spre detalii pe care nu le aveam în vedere iniţial Unii ar putea spune că ar fi mai simplu să dăm formă numai unor gânduri pentru care avem cuvinte a le exprima… E atât de uşor să cădem în extrema dadaistă, nu-i aşa? Aşadar, cum se poate rezolva dilema prietenului meu? Trebuie spus poate (pentru că mă slujesc de pretextul acesta de eseistică a științei pentru a face şi portrete) că Michael a făcut cam toate meseriile din lume înainte de a deveni om de ştiinţă Însă înainte de a se ocupa de cogniția generărilor lexicale a fost, cu precădere, fotograf Se ştie că aplecarea spre ştiinţă cere sacrificii şi ani îndelungaţi de dedicare Eu credeam că nu poţi să te apuci de ea aşa cum te apuci de business, de exemplu Poţi să-ţi începi o carieră de succes în afaceri la orice vârstă, dar nu poţi să faci asta în ştiinţă Ei bine, Michael a fost în stare Helsinki: despre neputința de a descrie mișcări și emoții Era vorba de imposibilitatea de a reproduce în cuvinte 9 dinamica mişcărilor Kimmo povestea despre plimbările lui cu bicicleta şi de faptul că experienţele lui de dinamică a mişcărilor şi dezechilibrelor şi revenirilor la verticalitate nu era în stare să i le explice copilului lui Corpul nostru ştie o mulţime de poziţii şi mişcări şi subtile stări de echilibru pentru care nu avem cuvinte cu care să le exprimăm Poate că dacă le- am inventa, partea vizibilă a unui experiment de echilibistrică ar putea fi redată, lăsând însă ascunse trăirile noastre din acele momente Aparent, suntem incapabili să exprimăm direct ceea ce simţim Degeaba am inventat cuvinte precum dragoste, iubire, atingere, geamăt Ele redau cu extrem de puţine nuanţe ceea ce se petrece de fapt înlăuntrul nostru Limba e incapabilă să reproducă nuanţele trăirilor De aceea literatura e cea mai grea dintre arte: pentru că limbajul nu este decât un aparat care ajută un invalid să se miște Dar suplețea și imponderabilul 9 Kimmo Koskenniemi este autorul morfologiei și fonologiei pe două niveluri (Two-level Morphology: A General Computational Model for Word-Form Recognition and Production, Publications, No 11, 160 pages, University of Helsinki, Department of General Linguistics, 1983) 6 mișcărilor de dans nu pot fi reproduse prin cuvinte Decât dacă ești genial Doar marea literatură e în stare să redea un astfel de dans Numai că, pentru asta, autorule, în genere, vorbești despre altceva Despre o stare de fapt care îți poate induce o senzație care să se apropie de cea pe care vrei s-o redai Rezultatul pe care-l produci cititorului reprezintă un efect indirect, el fiind impresionat „aproape” așa cum ai vrea să fie Acest „aproape” reprezintă contribuția lui la scrisul tău Pentru că trăirea lui se plămădește din propriile lui fantasme, în care cuvântul tău n-a fost decât un creuzet Substanța amestecată acolo e toată a lui și nu i-o poți copia (teleporta – dacă vrei) prin cuvinte I-o poți doar inspira Există, categoric, lexicoane și dicționare care lămuresc semiotica gestului, simbolistica dansului, a picturalului etc Cuvintele dau nume unui inventar de semne coregrafice pentru a face posibil ă imitarea iconic ă a semnului coregrafic sau pictural Dar eu mă refer aici la reproducerea, prin semnul scris, a emo ț iilor, a tr ă irilor inspirate de dans Aici avem o problemă Nu cunosc un dicționar al sensurilor, trăirilor, senzațiilor ce nu pot fi redate prin cuvinte Despre echilibrul diversității lingvistice - Ş i apoi e vorba ş i despre aceast ă proprietate a limbilor de a oferi celor care le vorbesc adăpost înăuntrul lor, ca în nişte case primitoare Pentru că acolo ştii toate obiectele din jur şi te simţi în siguranţă şi nimic rău nu are a ţi se întâmpla Chiar dacă un nemernic dă să-ţi intre în casă şi încearcă să ţi-o uzurpe cu vorbe grele, tu ştii că acolo el va fi mereu ameninţat şi asta îţi dă încredinţarea că odată şi odată se va plictisi şi te va lăsa în pace Dar e vorba mai ales de altceva Limba te ajută să te manifeşti în maniera ta proprie Imaginează-ţi că o evoluţie absurdă a societăţii ar fi dus la contopirea limbilor într-una singură, că raţiuni economice ori politice, ori de monopol, ar fi minimalizat din ce în ce în mai mult limbile mici în favoarea celor mari, prolifice, ori dense (cum sunt ele numite uneori acum) O astfel de uniformizare culturală trebuie să producă în cele din urmă convulsii sociale dintre cele mai grave Destinderea nu se poate produce decât 7 prin eliberare, iar eliberarea nu este deplină decât în singurătate, adică acolo unde eşti cu tine însuţi, neperturbat de alţii, unde nu-ţi intră oricine în casă, la orice oră, fără să te întrebe De aceea nu te simţi la fel de bine într-o gară ca la tine acasă Când vrei să fii liber, ai nevoie de intimitate Doar în intimitate te poţi manifesta neconstrâns de tabieturile altora, de impuneri colective, de convenţii de ordin moral, de prejudecăţi sociale Înţelegi acum de ce limba îţi oferă un astfel de adăpost Când vorbeşti o limbă pe care o înţelegi tu şi cei la fel ca tine, eşti în casă la tine Limba trebuie să-ţi ofere un anumit gen de intimitate de grup Ori, când acest lucru dispare, când ea nu-ţi mai dă protecţie, nu mai e coaja ta protectoare, ci e numai fereastră transparentă prin care, desigur, poţi privi lumea de afară, dar prin care mai ales eşti observat, atunci te simţi expus şi devii vulnerabil Presiunile psihice pot deveni extrem de costisitoare pentru societate Convulsiile sociale de acest gen se plătesc prin revolte, pentru care tot societatea achită nota de plată Până la urmă uniformitatea lingvistică e un non-sens economic Rezultatul e inevitabil o reacţie inversă, tendinţa de ascundere în interiorul unor mici comunităţi Iar acestea îşi vor forma propriile lor limbaje Universul lingvistic se va diversifica din nou singur Există un echilibru al diversităţii lingvistice care nu poate fi dărâmat, pentru că se revine la el oricum… - Ba nu, zise prietenul meu, e absurd ceea ce zici, pentru c ă nu uita că limbile s-au format şi pe considerentul izolării geografice Formele de relief şi barierele de organizare socială au marcat dintotdeauna delimitările după care s-au croit limbile şi s-au modelat dialectele Ori insulele de diversitate lingvistică pe care le previzionezi tu în interiorul unei societăţi decadente şi uniformizate lingvistic nu au cum să apară într-o epocă în care graniţele geografice nu mai există, distanţele s-au micşorat şi spaţiile se străbat în cel mult ore, nu luni ori ani Lumea circulă şi limbile se dizolvă unele în altele, limbile nu-şi mai pot păstra culorile originare, tari, crude, dialectele se infestează reciproc, limbile se maculează, pot fi uşor contaminate… - Hm… Societatea face din ce în ce mai mult uz de comunicarea electronică şi tocmai uşurinţa de comunicare va repara nevoia de izolare, lucru pe care geografia nu-l mai poate face, pentru că regrupările se fac acum pe alte criterii decât 8 geo-sociale, pe considerente de vârstă, de interese, de cultură Un individ poate vorbi mai multe socio-dialecte în cursul vieţii lui, pentru că avansând în vârstă poate migra dintr-un grup în altul şi pentru că îşi poate schimba preferinţele culturale Lucrul a devenit deja evident în webul social, pentru c ă s-au dezvoltat dialecte ale adolescenţilor internauţi care conversează mult pe chat-uri ori pe bloguri, în site-uri sociale şi care te scot din minţi cu simplificările gramaticale şi te uimesc cu invenţiile lexicale București, Iași: un început de rău augur - Da, în ţ eleg, dar acesta e un proiect pe care trebuie s ă -l conducem noi, lingviştii Dicţionarul a fost creat de Academie şi aşa trebuie să rămână: Dicționarul Tezaur al limbii române redactat sub egida Academiei - Neîndoios c ă va r ă mâne al Academiei, dar eu v ă vorbesc de formatul lui electronic Ori, a-l face e treabă în primul rând de informatician şi abia apoi de lingvist Am o mare consideraţie pentru această instituţie şi am fost mut de admiraţie când am auzit pentru prima oară de amploarea acestui dicţionar Și e clar că nu mi-ar revenit total din uimire, dacă mă apuc acum de această treabă, atât de grea Numai că ceea ce vă propun e o creaţie informatică Știu cum trebuie el făcut Nu e o problemă de prestigiu ci una tehnicistă Proiectul acesta trebuie condus de cineva care are habar cum anume trebuie făcut un dicţionar electronic, nu de cineva care ştie cum se fac dicţionare în general… Și cam asta a fost tot dialogul După care, cea mai slabă opoziţie a fost apatia Nu rezistenţa, ci sentimentul că nu eşti crezut, că ceea ce spui este răstălmăcit, fără putinţa de a te apăra Micșorarea financiară, operată de Minister tuturor proiectelor, bineînțeles că ne-a atins grav și pe noi Tensiunile s-au înmulțit, pentru că eu încă mai credeam că proiectul poate fi terminat Dar mi-a rămas în minte o frază pe care mi-a spus-o la telefon, către sfârșitul proiectului, o distinsă doamnă din aceeași instituție, parteneră în proiect: - Lăsați domnule Cristea, că timpul o să treacă și proiectul o să se termine și-o să redevenim iar oameni normali și fiecare o să-și vadă iar de treburile lui 9 Eroarea e acolo şi râde în sinea ei că eşti cu cititul atât de aproape de ea şi nu o vezi E ca vânatul pe care-l urmăreşti, plecând cu noaptea în cap, şi nu ştii unde e, deşi ştii că ar trebui să se afle pe undeva prin preajmă În cartea scanată şi pe care ai t10 recut-o printr-un program de OCR -izare caracterele bune se amestecă cu cele rele, la fel cum, într-un sac de orez, neghina cea neagră și amară se amestecă cu bobul alb Textul OCR-izat nu e de necitit, dar nici curat de bun nu e Unii au fost deranjați de acest proiect de la treburile lor Dar alții au crezut în el ca fiind ocazia de a crea forma electronică a marelui Dicționar Trezaur Și au făcut norme de corectură, fără măsură de multe Au fost persoane care au corectat peste 4000 de secvențe de dicționar Iar atunci când, cu două luni înainte de predarea finală, am descoperit că din colecția de pagini scanate ale Dicționarului, prin neglijența unui operator al firmei care ne-a executat copiile electronice, lipseau secvențe întregi, t11 ot colegii (lexicografi și informaticieni) au făcut norme de corectare în plus Iași: o rezistență legală În dimineaţa în care te scoli cu gândul că aceasta va fi ziua când trebuie să încerci o vizită la Bibliotecă, pentru a cere îngăduința de a scana câteva din sursele Dicționarului, trebuie: să fii curat în cuget, să-ți faci inventarul faptelor bune şi să te montezi într-o stare de spirit optimistă şi dezinteresată Începi prin a povesti despre Dicţionar În următoarea jumătate de oră tot ceea ce ştiai cu certitudine despre tine se va deteriora, ca un castel din nisip udat de ploaie Ai crezut că eşti un om bine-crescut, că spiritul de cinste şi bună-cuviinţă este singurul care te caracterizează Ei bine, aceste prejudecăţi ţi se vor risipi de îndată ce discursul tău va ajunge la momentul cheie în care vei mărturisi ce vrei să faci acolo: să scanezi cât mai multe din cărţile, proprietate a Bibliotecii, din care se vor fi 10 Optical Character Recognition – program de transformare a imaginii unui text într-un șir de coduri de litere 11 Gabriela Haja, Isabelle Dănilă, Cristina Florescu, Mioara Dragomir, Laura Mona Manea, Monica Corodeanu, Daniela Gîfu și Iulia Scutariu (ultimele două în afara proiectului, într-un generos voluntariat) 10 extras citatele pentru marele Dicţionar În acea clipă un rid orizontal, mai subţire decât un fir de păr, deteriorează simetria celor înmănunchiate pentru a susţine zâmbetul politicos cu care am fost întâmpinat Simt cum toată stratagema mea se destramă și sunt dat pe față în încercarea mea ticăloasă de a induce lipsa vreunui interes personal Sunt prins şi orice încercare de a-mi micșora vinovăţia e lipsită de sens! Mai bine aș recunoaşte grozăvia faptelor pe care aveam de gând să le comit şi care îmi urâţesc cugetul Nimeni nu vine acolo cu o astfel de cerere fără un gând ascuns Buna cunoaştere a caracterelor omeneşti ajută gazdele să-mi dea pe față imediat ceea ce n-aș fi vrut cu niciun chip să se afle Vina îmi e agravată de faptul că sunt informatician Se ştie că scanarea, mai ales când se doreşte a fi făcută într-o cantitate atât de mare, nu poate fi destinată decât unei afaceri murdare, care ar prejudicia Biblioteca şi, cum dincolo de asta orice e posibil, foarte probabil mi-ar umfla buzunarele Ca urmare, la primul contact sunt trimis acasă, dar mi se îngăduie totuși un al doilea, care va trebui mai bine pregătit Absurditatea cererii mele trebuie probată de un expert La a doua întâlnire, mi se face cunoștință cu d-na avocat, care nu are decăt un unic scop: să zică NU la orice tentativă a mea de a schița o soluţie Pentru că ceea ce vreau eu e peste măsură de absurd… Aflu că aproape tot ceea ce scapă legii drepturilor de autor este protejat de legea patrimoniului Şi aceasta, ca şi prima, pune stavilă celor care vor să se furișeze din biblioteci cu cărţile de valoare ale naţiunii, copiate pe diferite suporturi O carte rară este destinată să rămână în bibliotecă până ce policele lipicioase ale celor care o răsfoiesc în sală, ori praful din rafturi, ori umiditatea din pereţi vor transforma-o într-o pastă cleioasă, ori într-o foaie la fel de casantă ca cea de mică, ori într-un puzzle de bucăţele ferfeniţite Nici un scanner care ar încerca s-o transpună într-o copie electronică nu trebuie s-o atingă pentru că i-ar putea perturba procesul continuu de degradare E mai bine ca ea să dispară încet-încet, consumată de vreme ori de cititorii care s-au desfătat luînd-o de atâtea ori în braţe, decât ca Biblioteca s-o treacă o singură dată prin lumina unui scanner, după care s-o pună pe Internet, de unde ea ar putea fi consumată veşnic de populaţia flămândă de cunoaștere a globului, fără ca vreo 11 moleculă din substanţa ei să mai fie vreodată dusă afară pe degetele vreunui muritor Știu foarte bine (pentru că mi s-a povestit) că Biblioteca era vizitată săptămânal de o echipă de la Garda Patrimoniului care, după ce-i băteau în ușă doamnei Directoare, înainte încă de a-i spune bună dimineața, o întreabau: Ce-ați mai scanat?! Nu mă așteptam ca Biblioteca să mă aștepte pe mine ca pe un dar ceresc care nu mai venea, ca să le rezolv problema transpunerii electronice a vechilor manuscrise Dumnealor au acolo un serviciu informatic de prima mână care a reușit cuplarea la serviciul național de indexare și căutare bibliografică Vina e a mea, care am intrat în Bibliotecă virusat de ceea ce știam că se întâmplă în Italia, în Anglia și în alte părți, unde vechile manuscrise pot fi consultate de oricine, răsfoindu-le virtual înainte și anapoi de oricâte ori ai chef, căutând în ele după tot felul de criterii Și oarecum, apăruse în mintea mea iluzia că putem și noi face același lucru Precum și nevoia de a completa sursele electronice ale marelui Dicționar Până la urmă însă tratativele au dat roade și rațiunea a învins Îi sunt sincer recunoscător doamnei Directoare că a 12 permis în cele din urmă firmei PIM să instaleze un scaner în holul Bibliotecii, pe care, de-a lungul întregii veri a anului 2009, să se scaneze zeci de cărți aflate în lista surselor DA și 13 DLR Ele nu se găseau în colecția Bibliotecii Institutului Philippide (ce fusese deja epuizată) și se încadrau într-un interval temporal care le făcea inofensive atât din perspectiva legii patrimoniului cât și din cea a legii drepturilor de autor Prin protocolul încheiat între noi, fișierele obținute prin scanare, pot fi accesate de pe un server al Bibliotecii Iași, București, Cluj: eDTLR Între septembrie 2007 și decembrie 2010 am coordonat realizarea versiunii electronice a marelui Dicţionar Tezaur al 12 Compania care a acceptat să transporte voluminosul echipament de scanare în holul Bibliotecii și să plaseze acolo o operatoare, care a lucrat numai pentru noi, la un preț incredibil de mic pe pagina scanată 13 Cele două serii ale marelui Dicționar Tezaur, veche și nouă 12 A14 cademiei Române, proiect care s-a numit eDTLR Atracția mea către domeniul lingvisticii și cel al lexicografiei computaționale, va fi venind din dificultatea formalizării limbilor naturale Limba nu poate fi pusă în ecuații și este convingerea mea că nu poate fi scrisă o gramatică formală care să explice redundanța lexicală, idiosincraziile sintaxei ori deviațiile de sensuri ale cuvintelor unei limbi Nu cred că înțelesurile care pot fi exprimate în limbă se pot formaliza în sisteme logice Am suspectat ca jucărioare, teoretic interesante, dar practic neputincioase, toate încercările de a descrie e15 nunțurile limbajului natural în formule ale unui calcul logic Cred că soluția reprezentării înțelesului formulărilor limbajului natural se află într-o abordare combinată simbolic- statistică, în care esențială este utilizarea corpusurilor de limbă, ca depozitare ale contextelor, și a dicționarelor electronice, care să exprime funcțional sensurile Dar revenind la marele Dicționar Tezaur, în bună măsură, întreprinderea de a construi un dicționar electronic trebuie să fie ancorată în dorința de a retrezi interesul vorbitorilor de limbă română asupra limbii vechi, sau măcar a ceea ce se mai cunoaște despre ea, adică cea care transpare în sursele scrise O, dacă dintre toate cuvintele românești care se vor fi rostit vreodată pe teritoriul ţării sau pe-aiurea s-ar revigora o parte numai, ce surplus de expresivitate s-ar redeştepta, ce valenţe incredibile s-ar regenera, ce sensuri noi şi surprinzătoare ar fi redescoperite în cuvintele pe care le folosim curent Numai că, din păcate, această operă colosală a Academiei Române, marele Dicționar Tezaur, nu e cunoscut publicului nici măcar după multiplicarea lui recentă, prin copiere, în 18 volume În momentul de fa ță , eDTLR poate fi accesat la adresa http://85 122 23 9/, pe bază de conturi private Accesul va rămâne limitat până ce micul colectiv care continuă să lucreze 14 Contract 910013/18 09 2007, finanțat de MECT prin CNMP (PNCDI II, programul 4, Parteneriate în domeniile prioritare, Direcţia 9 – Cercetări socio-economice şi umaniste, coordonator Universitatea "Alexandru Ioan Cuza" Iaşi, Facultatea de Informatică 15 Doar două exemple ar fi: gramaticile Montague, care pretind să exprime enunțurile limbajului natural în formule ale logicii predicatelor și calculului lambda; gramaticile clauzelor definite, care utilizează limbajul Prolog ca suport de reprezentare sintactico-semantic 13 încă la el (după terminarea oficială a proiectului, ciuntit financiar de criza economică) va fi convins că e suficient de curat, conform riguroaselor uzanțe ale Academiei Abia după aceea vom cere din nou voie instituției care a lucrat un secol la crearea lui să îl facem cadou vorbitorilor de limbă română de pretutindeni, adică să-l deschidem publicului, pe Internet eDTLR cuprinde acum în baza lui de date 70 617 cuvinte aparținând seriilor: D – Doznic, E – Ezredeș, K – Luzula, N – Nuvelist, Pârvan – Zvugni Ele includ 149 255 sensuri principale și 347 174 de citate O altă secțiune a bazei lui de date mai conține 2 508 de volume, totalizând 971 769 de pagini în format imagine și text O parte a acesteia din urmă, mai exact 380 de volume, totalizând 145 766 de pagini, se află stocată pe un server al BCU-Iași, această secțiune putând fi accesată doar prin intermediul intrărilor eDTLR eDTLR are însă valențe care depășesc doar simplul acces oferit unei mase mari de utilizatori, ori scoaterea marelui Dicționar „în lume” de pe câteva rafturi ale unor institute ale limbii, ale marilor biblioteci ori ale câtorva pasionați cititori Și nici măcar utilizarea lui ca suport pentru completarea, aducerea lui la zi și creșterea lui, ori pentru modernizarea stilului de lucru al lexicografilor, nu spune tot adevărul eDTLR reprezintă o incredibilă sursă de informații pentru tehnologiile limbii române El poate fi de folos în mai multe feluri, dintre care o parte numai sunt următoarele: - ca tezaur de sensuri, citatele putând fi utilizate pentru a antrena programe care să recunoască sensurile cuvintelor în context; - ca suport pentru monitorizarea continu ă a limbii, dac ă o bază de exemple, mereu reînnoită prin contribuții permanente ale editurilor care tipăresc în limba română, ar fi ținută în legătură directă cu o variantă lărgită a Dicționarului Evoluțiile lexicale (extrem de agresive în zonele tehnice), de deviații ori înnoiri în sintaxă (desigur, lente), de glisări semantice ori dispariții/apariții de sensuri ar putea fi astfel depistate și înregistrate; - ca surs ă de alimentare a unui ontologii lexicale extinse, care să includă, doar ca punct de plecare, actualul WordNet românesc (care e aliniat cu cel englezesc, așa cum am menționat mai sus în acest articol); 14 - ca surs ă pentru reconstituirea morfologiei diacronice a limbii române, pentru că fiecare cuvânt este exemplificat prin citate care acoperă durata în care el a fost în circulație Selectarea formelor flexionare, în corelație cu diverse momente istorice, ar putea reconstitui această evoluție; - ca surs ă de servicii lexicale online ori mobile adresate bibliotecilor, școlilor, universităților și publicului larg; - ca resurs ă de cercetare în domeniul lexicografiei ș i al lingvisticii computaționale Un dicționar electronic este mult mai mult decât replica pe ecran a unui dicționar tipărit El este o resursă care alimentează cu date o serie întreagă de tehnologii informatice aplicate limbii Simultan, se pot imagina tehnici care să țină la zi acest colosal depozit de fișe ale cuvintelor, prin alimentarea lui continuă, dintr-o colecție semnificativă a tipăriturilor românești Toate acestea, cu siguranță și altele, ar putea fi realizate în beneficiul limbii române dacă colaborarea dintre lexicografi și informaticieni, care a fost începută încă înainte de a lua ființă proiectul eDTLR, ar continua 15 People and dictionaries by Dan Cristea Abstract A shallow traveling through different places related to the construction of electronic dictionaries and linguistic formalisms: Freiburg, Caen, Nancy, Marseille, Helsinki, Bucharest, Iași, Cluj Meeting people, drawing personalities, attitudes, and reactions A panoply of author's friends and their scientific contributions The final describes eDTLR, the electronic version of the Thesaurus Dictionary of the Romanian Language: what it is now and possibilities of use, out of which many relate to natural language technologies 16